Model Selection

Cross-language Visual Question Answering

# Cross-language Visual Question Answering

Llama 3.2 11B Vision Instruct

Llama 3.2-Vision is a multimodal large language model developed by Meta, supporting both image and text inputs, capable of tasks such as visual recognition, image reasoning, and captioning.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase